Önálló labor : Low latency speech to text alkalmazás/kutatás

Budapesti Műszaki és Gazdaságtudományi Egyetem - BME -- Távközlési és Médiainformatikai Tanszék - TMIT

BME - Távközlési és Mesterséges Intelligencia Tanszék - TMIT

| Témakiírások | | | | | IW

Témakiírások

Önálló labor

Aktuális témakiírások

Kiírt témák

>>Témakiírások >>

Ez egy előző félévben kiírt, archivált téma.

Low-latency speech-to-text alkalmazás/kutatás (Low latency speech-to-text)
A deep learning alapú ún. end-to-end beszédleiratozó rendszerek könnyen alkalmazhatók ma már szinte bármilyen nyelve, rögzített hanganyagokra. Azonban a valós idejű és egyben kis késleltetésű megoldások a legutóbbi időkig várattak magukra. A korszerű attention alapú megközelítések most jutottak el arra a szintre, hogy a nagy (többé-kevésbé) pontosságot megőrizve minimális, élő feliratozást is lehetővé tévő késletetéssel használhatók legyenek. A hallgató feladata a legkorszerűbb, gyakorlatban is alkalmazható megoldások megismerése, alkalmazása és kiértékelése magyar (vagy egyéb megbeszélt) nyelvre. Ajánlott deep learning ASR (Automatic Speech Recognition) toolkitek: WeNet, NVIDIA-NeMo, K2. A feladat folyamatos munkavégzést kíván, a Python és PyTorch ismerete jelentős előnyt jelent. Diplomatervig (sőt akár tovább) is vihető a téma. Angol olvasási készség, linux alapismeretek nehezen nélkülözhetőek.
Kulcsszavak: deep learning, low-latency, real-time systems, ASR, speech, Python
Témavezető: Mihajlik Péter
Oktatók: Mihajlik Péter.
A következő tantárgyakhoz javasolt:
	vitma345	(Vill., BSc. Önálló laboratórium)
	vitma414	(Szakdolgozat)
	vitmal03	(Vill.mérn. BSc Önálló laboratórium)
	vitmm807	(Vill., MSc, Önálló laboratórium 1, Infokommunikációs rendszerek)
	vitmm857	(Vill., MSc, Önálló laboratórium 2, Infokommunikációs rendszerek)
	vitmm907	(Diplomatervezés 1. (Vill. Infokommunikációs rendszerek szakirány))
	vitmml02	(Vill,MSc,Önlab.1, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML02))
	vitmml03	(Vill,MSc,Önlab.2, Okos város,Vez.nélküli rendsz. és alk.ok,Multimédia rendsz. és szolg.,Optikai távközlés (VITMML03))
	vieum821	(Önálló munka 1)
	vitmm379	(Önálló laboratórium 1)
	vitmm380	(Önálló laboratórium 2)
	vitmm381	(Diplomatervezés 1)
	vitmm382	(Diplomatervezés 2)

QR: (mi is az?)
	katt. a nagyításhoz

Low-latency speech-to-text alkalmazás/kutatás (Low latency speech-to-text)